统计计量 | 一些常见的计量基础问题
The following article is from 不止点滴 Author 秋枫澜
本文转载自公众号不止点滴
之前有不少人问过我一些计量问题,现做一个部分的整理以供参考。
1回归模型的R square很小怎么办?
首先,R square只是衡量模型拟合优劣的标准之一,并非唯一的标准,不要只盯着它不放;其次,R square并不具备横向比较意义,对于两个不同的模型,即便模型1的R square达到了0.9,模型2的R square只有0.1,也不能说明模型1比模型2拟合得更好;此外,就我的经历来看,对于微观面板数据研究,比如企业问题研究,低的R square似乎是一个很平常的现象;最后,R square本身存在一定缺陷,可以很容易人为地调高。我以前写过一个推送:R square,真的很重要吗?,感兴趣的可以看下。
2怎么计算U型或者倒U型模型的临界值?
当模型中具有解释变量的二次项时,假设一次项的系数为a1,二次项的系数为a2,则对应的临界值x的计算公式为:x = | a1/(2*a2) |,即一次项的系数除以二次项的系数的2倍后取绝对值。
3遇到多重共线性怎么办?
之前有人跟我说:我的解释变量和被解释变量高度相关,两者会不会存在多重共线性问题?当时真想翻个白眼给他。多重共线性问题是指解释变量之间的纠缠,只会出现在模型等式的右边。首先要说明的是,解释变量之间或多或少都有联系,因而多重共线性问题是始终存在的,我们一般说多重共线,往往都是出现了严重的乃至完全共线性。遇到严重的多重共线性时,一般可以尝试如下几个解决思路:a.删除和调整相关的解释变量;b. 当高度相关的解释变量很多时,可以考虑采用主成分分析法提取出新的变量;c. 逐步回归法;d.可以将所涉及变量进行标准化,即减去均值,再除以标准差,然后再进行回归,这样可以缓解高次项与线性项的多重共线性(陈强说的)。
4面板数据模型是否一定要控制时间固定效应?
很多人发现在控制了时间固定效应后核心解释变量往往变得不显著了,为了让结果更好看便不再控制时间效应,这一做法一般是不可取的,要是去投稿,审稿人肯定会对此提出意见。也不是说一定且绝对地要控制时间效应,有时候时间效应确实没影响,但这种情况比较少。其实,要不要控制时间固定效应和要不要控制个体固定效应的逻辑是一样一样的。建议做论文时直接采用双向固定效应模型。之间比较详细介绍过固定效应的原理和使用理由,感兴趣的可以看下:固定效应还是随机效应?Hausman检验?
5怎么控制时间固定效应?
这个问题在固定效应的Stata实现这个推文中已经介绍过了,操作挺简单的,就是在回归模型中加入i.year。这里要再多说一点的是,我们在看文献的时候,经常会发现别人说:本文进一步控制了时间趋势,具体操作方法是在模型中直接加入year这个变量。其实,加入i.year或year实现的都是一样的目的,只不过两者的假设不一样,前者假设每个年度上的边际影响不一样,从而我们估计出了每个年度效应的系数,而后者则更为严格地假设每个年度上的边际影响相同,从而year的回归系数为常数。
6当被解释变量为二值变量时能否用OLS回归?
对于二值选择模型,我们一般用Probit或者Logit模型进行回归,但由于这两种方法下的回归系数均不能直接解释,需要进行调整,所以略显麻烦。很多时候,我们会看到别人直接用线性概率模型(LPM,其实就是OLS)对二值选择模型进行回归,这是完全可以的。有以下几个理由:a.在大样本情况下,Probit、Logit和LPM的估计结果相近,没多大差别;b.LPM的估计系数可以直接解释为平均处理效应,便于回归结果的解读(LPM的一个不足就是估计系数可能会大于1);c.当模型中存在交互项时,Probit等模型下的交互项系数解释起来会十分复杂。
7t值还是标准误?
不少人在汇报回归结果时纠结着到底要报告t值还是标准误,其实都是可以的,但那些打算报告p值的还是算了吧。不过,就目前国内外的趋势来看,更加倾向于汇报标准误,尤其是稳健标准误以及聚类稳健标准误,因此建议大家以后多往这个趋势走。
8分组回归还是做交互项?
分组回归和做交互项(这里指的是和虚拟变量做交互以及按虚拟变量分组)都可以用来考察效应的异质性,做哪一个都是可以的。两者的主要区别在于,交互项的结果能直接解释为:x对y的影响在A组中要显著大于B组,但是分组回归则不然。很多人不注意这一点,分组回归只能说明,x对y的影响在A组和在B组存在差异,但究竟在A组中的影响是否要显著大于在B组中的影响,是需要额外做检验的。另,如果将该虚拟变量与模型中所有的变量都做交互项,则完全等同于分组回归。
9解释变量的单位对回归结果是否有影响?
解释变量的单位对回归系数的一致性等不会产生任何影响,唯一影响的是回归系数的大小,因此,当遇到回归系数过小或者过大的问题时,可以通过调整相应变量的单位来解决。比如,当被解释变量的单位由十元变成元,相当于被解释变量的数值乘以了10,然后再进行回归,会发现截距项和所有解释变量的回归系数都变大了(在原来基础上都乘以了10)。
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
推荐 | 青酱
欢迎扫描👇二维码添加关注